9 research outputs found

    A quantitative and qualitative analysis of Nordic surnames

    Get PDF
    Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. Editors: Bolette Sandford Pedersen, Gunta Nešpore and Inguna Skadiņa. NEALT Proceedings Series, Vol. 11 (2011), 74-81. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/16955

    Automatic differentiation between literal and metaphorical meaning in authentic non-annotated phrases from the Corpus of Greek Texts by means of computational methods of machine learning

    No full text
    The object of this thesis is the automatic differentiation between literal and metaphorical meaning in authentic non-annotated phrases from the Corpus of Greek Texts by means of computational methods of machine learning. For this purpose the theoretical background of distributional semantics is discussed and employed. Distributional Semantics Theory develops concepts and methods for the quantification and classification of semantic similarities displayed by linguistic elements in large amounts of linguistic data according to their distributional properties. In accordance with this model, the approach followed in the thesis takes into account the linguistic context for the computation of the distributional representation of phrases in geometrical space, as well as for their comparison with the distributional representations of other phrases, whose function in speech is already “known” with the objective to reach conclusions about their literal or metaphorical function in the specific linguistic context. This procedure aims at dealing with the lack of linguistic resources for the Greek language, as the almost impossible up to now semantic comparison between “phrases”, takes the form of an arithmetical comparison of their distributional representations in geometrical space.The vast majority of theoretical approaches to metaphor conceive it as a means of mapping and connecting different conceptual areas; there have also been several attempts to identify the criteria according to which these mappings are made. The approach to metaphor as a concept and its assumed correlation with cognition, albeit useful, cannot contribute to the automatic recognition of metaphorical meanings and their differentiation from literal meanings. In parallel, various theories on the automatic detection and recognition of metaphorical phrases have been formulated. However, their majority requires access to linguistic resources and use of tools or expensive and time-consuming manual annotation in order to reach semantic mappings. Taking into consideration the limitations of Greek as regards resources and tools, it is preferable to follow the principles of distributional semantics, which pursue the affiliations of a word with the rest of its linguistic context without explicitly taking into account the connections from between this word and its related concepts. Distributional semantics have been paramount in shifting research interest towards neural language models, which can attribute hidden statistical characteristics of the distributional representations of word sequences in natural language. In this thesis neural language models are preferred to traditional statistical models, as they are in position to render a large amount of training data with a relatively small number of parameters. Thus, the goal is to match every word with a constantly evaluated distributional representation in geometrical space, since the probability of a lexical sequence is expressed as the result of the appearance probabilities, under certain conditions, of the next word offering the probabilities of previous ones. In order to achieve the matching of linguistic data with their distributional representations in geometrical space, the deep learning algorithm word2vec is utilized. After the neural model has been appropriately trained, based on distributional data representations, a support vector machine attempts the binary classification of phrases between literal and metaphorical meaning with criteria of arithmetical proximity of the distributional representation of the phrase under investigation to the distributional representations of other phrases whose function is already known.For the distinction between the literal and metaphorical function of a phrase a discriminative model is recommended, which, through appropriate training, is able to identify the optimal separating hyper plane of the vector representation word combination and will have the ability to generalize to new, unseen data. Then an attempt is made for the automatic detection and recognition of the metaphorical meaning in an automatic and dynamic way through the arithmetical comparison of the distributional representations of phrases with those of others, already characterized in terms of their function.Η διατριβή έχει ως στόχο την αυτόματη διάκριση της μεταφορικής από την κυριολεκτική σημασία σε αυθεντικές μη επισημειωμένες φράσεις που προέρχονται από το Σώμα Ελληνικών Κειμένων (ΣΕΚ), αξιοποιώντας υπολογιστικές μεθόδους της μηχανικής μάθησης. Για το σκοπό αυτό αξιοποιείται το θεωρητικό υπόβαθρο της κατανεμητικής σημασιολογίας, η οποία αναπτύσσει έννοιες και μεθόδους για την ποσοτικοποίηση και κατηγοριοποίηση σημασιολογικών ομοιοτήτων που εμφανίζουν γλωσσικά στοιχεία μεγάλων δειγμάτων γλωσσικών δεδομένων με βάση τις διανυσματικές τους ιδιότητες. Ακολουθώντας το πρότυπο της κατανεμητικής σημασιολογίας, η παρούσα προσέγγιση λαμβάνει υπ’ όψιν το γλωσσικό περικείμενο για τον υπολογισμό της διανυσματικής απεικόνισης των φράσεων στον γεωμετρικό χώρο και για τη σύγκρισή τους με τις διανυσματικές απεικονίσεις άλλων φράσεων των οποίων η λειτουργία στον λόγο είναι ήδη γνωστή έτσι ώστε να εξαχθούν συμπεράσματα για την κυριολεκτική ή μεταφορική λειτουργία τους στο συγκεκριμένο γλωσσικό περιβάλλον. Η διαδικασία αυτή αποβλέπει στο να αντιμετωπίσει το πρόβλημα της έλλειψης γλωσσικών πόρων για την ελληνική γλώσσα, καθώς η μέχρι τώρα σχεδόν αδύνατη σημασιολογική σύγκριση μεταξύ φράσεων μετατρέπεται σε αριθμητική σύγκριση των διανυσματικών τους απεικονίσεων στον γεωμετρικό χώρο.Η συντριπτική πλειονότητα των θεωρητικών προσεγγίσεων στη μεταφορά την εκλαμβάνει ως έναν τρόπο συσχετισμού και σύνδεσης μεταξύ διαφορετικών εννοιολογικών περιοχών και επιχειρεί τον εντοπισμό των κριτηρίων με τα οποία διενεργούνται αυτοί οι συσχετισμοί. Η θεώρηση της μεταφοράς ως έννοιας και η συσχέτισή της με τη νόηση, παρότι χρήσιμη, δεν μπορεί από μόνη της να οδηγήσει στην αυτόματη αναγνώριση της μεταφορικότητας και στη διάκρισή της από την κυριολεξία. Ταυτόχρονα, έχουν διατυπωθεί ποικίλες θεωρίες για τον αυτόματο εντοπισμό και την αναγνώριση των μεταφορικών φράσεων. Ωστόσο, η πλειονότητά τους απαιτεί πρόσβαση σε γλωσσικούς πόρους, αξιοποίηση εργαλείων προκειμένου να επιτευχθούν σημασιολογικοί συσχετισμοί ή δαπανηρές και χρονοβόρες χειρωνακτικές επισημειώσεις. Λαμβάνοντας υπόψη τους περιορισμούς της ελληνικής στο πεδίο των πόρων και των εργαλείων σε συνδυασμό με έναν εκθετικά αυξανόμενο αριθμό εργαλείων, που είναι σε θέση να εκπαιδευθούν από αυθεντικό κείμενο, μπορούμε να στραφούμε στις αρχές της κατανεμητικής σημασιολογίας, που αναζητούν τις σχέσεις μιας λέξης με τις υπόλοιπες του γλωσσικού περικειμένου χωρίς να εξετάζονται ρητά οι σχέσεις που υπάρχουν ανάμεσα στη λέξη και τις έννοιες με τις οποίες συνδέεται. Οι αρχές της κατανεμητικής σημασιολογίας οδήγησαν το ερευνητικό ενδιαφέρον προς νευρωνικά γλωσσικά μοντέλα, που είναι σε θέση να αποδώσουν κρυμμένα στατιστικά χαρακτηριστικά των διανυσματικών απεικονίσεων των ακολουθιών των λέξεων σε φυσική γλώσσα. Στην παρούσα διατριβή προτιμώνται τα νευρωνικά γλωσσικά μοντέλα έναντι των παραδοσιακών στατιστικών μοντέλων, καθώς είναι σε θέση με σχετικά μικρό αριθμό παραμέτρων να αποδώσουν μεγάλο σύνολο δεδομένων εκπαίδευσης. Επιδιώκεται έτσι η αντιστοίχιση κάθε λέξης με μια διαρκώς αξιολογούμενη διανυσματική απεικόνιση στον γεωμετρικό χώρο, αφού η πιθανότητα της λεξικής ακολουθίας εκφράζεται ως το αποτέλεσμα των υπό όρους πιθανοτήτων εμφάνισης της επόμενης λέξης δίνοντας τις πιθανότητες των προηγούμενων. Προκειμένου να επιτευχθεί η αντιστοίχιση των γλωσσικών δεδομένων με τις διανυσματικές τους απεικονίσεις στον γεωμετρικό χώρο αξιοποιείται ο αλγόριθμος βαθιάς εκμάθησης word2vec. Αφού εκπαιδευθεί κατάλληλα το νευρωνικό μοντέλο με βάση τις διανυσματικές απεικονίσεις των δεδομένων, μια μηχανή διανυσματικής υποστήριξης επιχειρεί τη δυαδική ταξινόμηση φράσεων μεταξύ μεταφοράς και κυριολεξίας με κριτήριο την αριθμητική εγγύτητα της διανυσματικής απεικόνισης της εξεταζόμενης φράσης με τις διανυσματικές απεικονίσεις άλλων φράσεων των οποίων η λειτουργία είναι ήδη γνωστή. Για τη διάκριση της κυριολεκτικής από τη μεταφορική λειτουργία μιας φράσης προτείνεται ένα μοντέλο διαχωρισμού κλάσεων, το οποίο με κατάλληλη εκπαίδευση μεγιστοποιεί την ακρίβεια πρόβλεψης της μεταφορικής φράσης και έχει την ικανότητα να γενικεύει σε νέα, άγνωστα δεδομένα. Σε δεύτερο χρόνο μέσα από τη αριθμητική σύγκριση των διανυσματικών απεικονίσεων των φράσεων με τις διανυσματικές απεικονίσεις άλλων ήδη χαρακτηρισμένων ως προς την λειτουργία τους φράσεων επιδιώκεται ο αυτόματος εντοπισμός και η αναγνώριση της μεταφορικότητας με αυτόματο και δυναμικό τρόπο

    The Utility of NGS Analysis in Homologous Recombination Deficiency Tracking

    No full text
    Several tumor types have been efficiently treated with PARP inhibitors (PARPis), which are now approved for the treatment of ovarian, breast, prostate, and pancreatic cancers. The BRCA1/2 genes and mutations in many additional genes involved in the HR pathway may be responsible for the HRD phenomenon. The aim of the present study was to investigate the association between genomic loss of heterozygosity (gLOH) and alterations in 513 genes with targeted and immuno-oncology therapies in 406 samples using an NGS assay. In addition, the %gLOHs of 24 samples were calculated using the Affymetrix technology in order to compare the results obtained via the two methodologies. HR variations occurred in 20.93% of the malignancies, while BRCA1/2 gene alterations occurred in 5.17% of the malignancies. The %LOH was highly correlated with alterations in the BRCA1/2 genes, since 76.19% (16/21) of the BRCA1/2 positive tumors had a high %LOH value (p = 0.007). Moreover, the LOH status was highly correlated with the TP53 and KRAS statuses, but there was no association with the TMB value. Lin’s concordance correlation coefficient for the 24 samples simultaneously examined via both assays was 0.87, indicating a nearly perfect agreement. In conclusion, the addition of gLOH analysis could assist in the detection of additional patients eligible for treatment with PARPis

    ArguLens: Anatomy of Community Opinions On Usability Issues Using Argumentation Models

    No full text
    In open-source software (OSS), the design of usability is often influenced by the discussions among community members on platforms such as issue tracking systems (ITSs). However, digesting the rich information embedded in issue discussions can be a major challenge due to the vast number and diversity of the comments. We propose and evaluate ArguLens, a conceptual framework and automated technique leveraging an argumentation model to support effective understanding and consolidation of community opinions in ITSs. Through content analysis, we anatomized highly discussed usability issues from a large, active OSS project, into their argumentation components and standpoints. We then experimented with supervised machine learning techniques for automated argument extraction. Finally, through a study with experienced ITS users, we show that the information provided by ArguLens supported the digestion of usability-related opinions and facilitated the review of lengthy issues. ArguLens provides the direction of designing valuable tools for high-level reasoning and effective discussion about usability
    corecore